tg-me.com/llm_arena/30
Last Update:
👋 Всем привет! В прошлом месяце мы добавили на платформу SLAVA — бенчмарк, который тестирует языковые модели на фактическую точность в российском контексте.
В чём его особенность? Он затрагивает реальные, актуальные и даже спорные темы, которые часто остаются за рамками традиционных бенчмарков.
Со SLAVA модели не просто повторяют заученные фразы — им приходится ориентироваться в локальной специфике, разбираться в нюансах истории, экономики и культуры, формулируя осмысленный, точный и логичный ответ.
Найти бенчмарк можно на сайте llmarena.ru
Проверить, какие модели справляются с задачами лучше, можно на сайте llmarena.ru или прямо здесь в Telegram.
Какие бенчмарки вам интересны? Пишите в комментариях 👇